XxlCrawler实战:从FlightAware抓取ICAO代码
创作时间:
2025-01-21 16:58:20
作者:
@小白创作中心
XxlCrawler实战:从FlightAware抓取ICAO代码
飞机出行是长距离旅行或出差的必备方式,登机牌上包含的重要信息之一就是航空公司的ICAO三字码。本文将介绍如何使用XxlCrawler抓取全球航空公司ICAO三字码,并提供两种不同的数据解析方式。
数据源介绍
目标网站
本文选择从航班追踪网站FlightAware获取实时航班对应的航空公司信息。在浏览器中打开目标网站,点击航空公司列表,可以看到包含航空公司ICAO码和英文名称的页面。
页面渲染结构
通过查看网页的调试信息,可以发现数据渲染的层次结构:从最顶层的pageContainer,到下级的prettyTable,再到表格中的tbody、tr和td。我们需要遍历td元素以获取所需数据。
XxlCrawler信息获取
创建XxlCrawler对象
在进行信息抓取前,需要定义抓取对象:
private static final String GET_ICAO_URL = "https://zh.flightaware.com/live/fleet/";
private static final String USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36";
XxlCrawler crawler = new XxlCrawler.Builder()
.setUrls(GET_ICAO_URL)
.setAllowSpread(false)
.setThreadCount(3)
.setPauseMillis(2000)
.setUserAgent(USER_AGENT)
.setIfPost(false)
.setFailRetryCount(3)
.setPageParser(new PageParser<PageVo>() {
@Override
public void parse(Document html, Element pageVoElement, PageVo pageVo) {
printVo(pageVo);
}
}).build();
这里设置为只爬取目标页面一次,不进行扩散抓取。
定义PageVo对象
PageVo对象用于网页数据的解析:
@PageSelect(cssQuery = ".pageContainer .prettyTable >tbody")
@Data
public static class PageVo {
@PageFieldSelect(cssQuery = ">tr >td:eq(0)")
private List<String> flightsNum;
@PageFieldSelect(cssQuery = ">tr >td:eq(1)")
private List<String> icaoCode;
@PageFieldSelect(cssQuery = ">tr >td:eq(2)")
private List<String> airline;
}
这里定义了三个属性分别保存航班数、ICAO代码和航空公司英文名称。
直接PageVO解析
通过定义PageVO对象,可以实现属性的自助解析:
protected void printVo(PageVo pageVo) {
System.out.println(pageVo);
System.out.println(pageVo.getFlightsNum().size());
System.out.println(pageVo.getFlightsNum());
System.out.println(pageVo.getAirline().size());
System.out.println(pageVo.getAirline());
System.out.println(pageVo.getIcaoCode().size());
System.out.println(pageVo.getIcaoCode());
for (int i = 0; i < pageVo.getFlightsNum().size(); i++) {
System.out.println("航班数:" + pageVo.getFlightsNum().get(i) + "\t ICAO代码:" + pageVo.getIcaoCode().get(i)
+ "\t 航空英文名称:" + pageVo.getAirline().get(i));
}
}
运行代码可以看到相关信息已被成功爬取。
自定义解析
如果单元格较多,可以使用自定义解析模式:
protected void printElementVo(Element pageVoElement) {
List<AirlineVo> airlineList = new ArrayList<>();
for (int i = 0; i < pageVoElement.childrenSize(); i++) {
Element childElement = pageVoElement.child(i);
String flightsNum = childElement.child(0).text();
String icao = childElement.child(1).text();
String airline = childElement.child(2).text();
System.out.println("航班数:" + flightsNum + "\t ICAO代码:" + icao + "\t 航空英文名称:" + airline);
airlineList.add(new AirlineVo(flightsNum, icao, airline));
}
ExcelUtil<AirlineVo> util = new ExcelUtil<>(AirlineVo.class);
util.exportExcel(airlineList, "全球航空公司ICAO代码表-20240514");
}
@Data
@AllArgsConstructor
@NoArgsConstructor
public class AirlineVo {
@Excel(name = "航班数")
private String flightsNum;
@Excel(name = "icao代码")
private String icaoCode;
@Excel(name = "航空公司英文名称")
private String airlineEn;
}
最后将抓取的信息列表保存到Excel表格中。
总结
本文介绍了使用XxlCrawler抓取全球航空公司ICAO三字码的方法,提供了两种数据解析方式,并将结果保存为Excel文件。通过本文,读者可以掌握数据抓取和解析的基本技巧,为数据处理和信息获取提供实用的解决方案。
热门推荐
无限暖暖世界巡游隐藏打卡点全攻略:41个成就轻松达成
云南白药成腰部扭伤救星?使用有讲究
腰部扭伤必备神器:麝香壮骨膏
智能手表:年轻人的情绪救星?
AI情绪监测黑科技:揭秘前庭情感反射
维生素A护眼,熬夜党福音?
胡萝卜、芒果、猪肝:维生素A的三大王者
六句台词,道尽《同桌的你》里的青春与成长
老年朋友的记忆救星!掌握这一招,电话号码再也不用愁记不住啦!
成都太古里:大慈寺的历史密码
青少年打羽毛球的好处多不多?
羽球名将走进深圳南山校园,天王杯开课传递羽球梦!
于和伟鲍国安陈建斌,三国曹操谁演得最好
高黎贡山徒步攻略:3条精选路线详解,动植物天堂等你来
云南腾冲:火山温泉养生,古镇银杏赏景,冬日里的温暖之旅
上正恒泰律所杨澜波律师解读最新数据合规法规
孟洁律师教你成为优秀数据合规律师
数据合规官教你隐私保护新姿势
重阳节特辑:老年人科学按摩指南
腹部按摩:糖尿病患者的健康管理新选择
一文掌握微信小程序四大页面跳转方式
小程序开发必知:4种页面跳转+4种数据传递方法详解
权力吞噬情感:解析《甄嬛传》中的女性命运
《甄嬛传》14年后再聚首,经典台词重现引热议
西兰花、西红柿、胡萝卜:抗动脉硬化三大神器
零零后作家赵文祯:才华横溢的文学新星
冬季健康饮食+运动,远离动脉硬化
奥运冠军走进三坊七巷:千年古街迎来体育明星
西安交通大学计算机科学与技术专业:全国前列的权威认证
冬日故宫赏雪,颐和园滑冰:北京皇家园林游玩攻略